Diagnóstico de fiabilidad de LLM como juez con IRT
Descubre cómo diagnosticar la fiabilidad de los LLM como jueces usando la teoría de respuesta al ítem (IRT) para evaluar consistencia y alineación con expertos humanos.
Descubre cómo diagnosticar la fiabilidad de los LLM como jueces usando la teoría de respuesta al ítem (IRT) para evaluar consistencia y alineación con expertos humanos.